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【摘要 】 背景 ” 轻 度 认 知 功能 障碍 (Mild cognitive impairment, MCI) Æ FA ERAN RENE, 
既往 研究 发 现 MCI 与 遗传 因素 存在 紧密 关联 ， 且 载 脂 蛋 白 E (Apolipoprotein E, APOE) e4 是 医学 界 公认 的 MCI 
重要 风险 等 位 基因 。 由 于 缺少 MCI 的 全 基因 组 关联 研究 CGenome-wide association study, GWAS) 汇总 数据 ， 当 前 
普遍 以 阿尔 茨 海 默 症 (Alzheimer’s disease, AD) 的 GWAS 汇总 数据 作为 Base 数据 集 来 计算 MCI 的 多 基因 风险 评 
分 (Polygenic risk score，PRS)， 致 使 MCI 的 PRS 遗传 风险 预测 效果 并 不 理想 。 目 的 ”本 研究 以 多 基因 遗传 风险 综 
合 评分 CMeta-polygenic risk score; metaPRS) 与 APOEe4 作为 重要 预测 因子 ， 从 广义 线性 模型 与 机 器 学 习 角度 ， 
探索 并 优化 MCI 的 遗传 风险 统计 建 模 策略 。 方 法 “计算 MCI 的 12 个 亚 表 型 PRS， 并 利用 弹性 网 状 Logistic 回归 模 
型 将 其 整合 为 MCI 的 metaPRS。 利 用 年 龄 矫正 的 APOEs4 效 应 量 计算 APOEs4 加 权 总 和 〈SCOREApog)。 以 metaPRS、 
SCOREApor 及 基本 人 口 学 信息 年龄 、 性 别 、 受 教育 程度 ) 构建 不 同 的 预测 因子 纳入 策略 ， 以 XGBoost, GBM, 
”Logistic 回归 及 Lasso 回归 作为 统计 建 模 方法 ， 采 用 AUC 及 F-measure 评价 MCI 遗传 风险 统计 建 模 的 预测 效果 。 结 
果 metaPRS 与 SCOREApog 对 于 MCI 的 遗传 风险 有 较 高 的 预测 价值 ， 纳 入 metaPRS、SCOREApog 及 基本 人 口 学 信 
上 县 〈 年 龄 ， 性 别 ， 受 教育 程度 ) 后 ， 各 个 统计 建 模 方法 的 预测 效果 为 : XGBoost CAUC-0.69, F-measure-0.88), 
GBM CAUC-0.76, F-measure-0.87) , Logistic 回归  CAUC-O.77, F-measure-0.89) , Lasso 回归 (AUC=0.76， 
F—measure-0.92). H% ”在 样本 量 不 高 〈 小 于 5000 的 情况 下 ， 以 metaPRS. SCOREAror 与 基本 人 口 学 信息 为 预 
测 因子 ， 以 Lasso 回归 为 统计 建 模 方 法 的 MCI 遗传 风险 预测 效果 最 好 ， 为 MCI 等 复杂 疾病 的 遗传 风险 统计 建 模 提 
供 了 新 的 思路 与 视角 。 
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- Application of metaPRS and APOE:4 to optimize genetic risk prediction modeling strategy for mild 


- cognitive impairment 
LI Zimeng!, WANG Rong’, CHEN Shuai, ZHAO Caili', WANG Xiaocong’, WEN Yalu'?^', LIU Long^^' 


1. Department of Epidemiology and Health Statistics, Shanxi Medical University, Taiyuan 030000, China 
2. Shanxi Key Laboratory of Risk Assessment for Serious Diseases, Taiyuan 030000, China 
3. School of Public Health and Preventive Medicine, Monash University, 3800, Australia 
"Corresponding author: WEN Yalu, Professor, Doctoral supervisor; E-mail: wenyalu103 IshanxiQ 126.com 
LIU Long, Lecturer, Master supervisor; E-mail: biostat-ll(gsxmu.edu.cn 

[Abstract] | Background Mild cognitive impairment (MCI) is an important stage to intervene and delay the 
progression of dementia, and studies have shown that it is closely associated with genetic factors, among which 
Apolipoprotein E (APOE) £4 is known to be an important risk allele of MCI in the medical community. Due to the lack of 
genome-wide association study (GWAS) summary data of MCI, existing studies calculate the polygenic risk score (PRS) of 
MCI based on GWAS summary data of Alzheimer's disease, which leads to the unsatisfactory effect of the existing statistical 
modeling of genetic risk of MCI. Objective In this study, meta-polygenic risk score (metaPRS) and APOEz4 were used 
as important predictors to explore and optimize the statistical modeling strategy of genetic risk in MCI from the perspective 
of generalized linear model and machine learning. Methods PRS for the 12 MCI-related traits were calculated and 
integrated into metaPRS for MCI by elastic-net logistic regression model. SCOREApoE is calculated by weighting the APOEe4 
effect size with age correction. In this study; XGBoost, GBM, Logistic regression and Lasso regression were used as 
statistical modeling methods to verify the inclusion strategies of different predictors based on metaPRS, SCOREAroE and 


basic demographic information (age, gender, education level). AUC and F-measure were used to evaluate the predictive 


effect of statistical modeling of genetic risk of MCI. Results For the genetic risk of MCI, metaPRS and SCOREApoz have 
high predictive value. After including metaPRS, SCOREAroz and basic demographic information (age, gender, education 
level), the predictive effect of each statistical modeling method is as follows: XGBoost (AUC=0.69, F-measure=0.88), 
GBM (AUC=0.76 , F-measure-0.87) , logistic regression (AUC=0.77 , F-measure-0.89) , and lasso regression 
(AUC=0.76, F-measure-0.92). Conclusion When the sample size is not high (less than 500), the lasso regression model 
constructed by including metaPRS, SCOREAaroz and basic demographic information (age, gender, education level) has 
the best effect on MCI genetic risk prediction; which provided a new idea and perspective for statistical modeling of genetic 
risk of MCI and other complex diseases. 
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Statistical modeling optimization 
轻 度 认 知 障碍 (Mild cognitive impairment, MCD 是 干预 和 延缓 痴呆 进展 的 重要 阶段 山 。 研 究 发 现 ，MCI 是 遗 
传 与 环境 因素 共同 作用 的 结果 ， 且 载 脂 和 蛋白 E (Apolipoprotein E; APOE) s4 与 MCI 高 度 相 关 丫 。 多 基因 风险 评分 
(Polygenic risk score, PRS) 是 最 常用 的 复杂 疾病 遗传 风险 预测 方法 之 一 ， 由 于 MCI 特殊 的 疾病 状态 ， 尚 无 关于 
MCI 的 国际 公开 全 基因 组 关联 研究 (Genome-wide association study, GWAS) 汇总 数据 。 目 前 普遍 以 阿尔 茨 海 默 证 
(Alzheimer’s disease; AD) 的 GWAS 汇 总 数据 作为 Base 数据 集 用 于 MCI 的 PRS 计算 ， 导致 MCI 遗传 风险 的 预测 
效果 并 不 理想 ， 关 于 MCI 的 遗传 风险 预测 模型 AUC 普遍 徘徊 在 0.58-0.68B1。Abraham Gad 欠 提 出 了 多 基因 遗传 风 
险 综合 评分 CMeta-polygenic risk score，metaPRS )， 通 过 有 效 整 合 该 疾病 的 多 个 亚 表 型 PRS 来 进一步 提高 遗传 风险 
的 预测 精度 ， 且 metaPRS 已 在 缺 血性 脑 葵 中， 抑郁 症 和 冠 心病 等 疾病 得 到 很 好 的 应 用 。 此 外 ， 相 关 研 究 表明 ， 基 
C 本 人 口 学 信息 《年 龄 ， 性 别 ， 受 教育 程度 ) 加 和 APOEs4 加 权 总 和 (SCOREApog) [1 对 MCI 具有 较 高 的 预测 价值 ， 
LO) 值得 进一步 探索 。 
4 MCI 遗传 风险 统计 建 模 方法 主要 包括 广义 线性 模型 (Generalized linear model, GLM) 和 机 器 学 习 (Machine 


Psi 


C5 leaming, ML) 两 类 。 复 杂 疾 病 遗 传 风险 预测 统计 建 模 通常 需 满足 两 个 基本 特性 :一 方面 该 模型 可 以 处 理 非 正 态 分 


Cw 明 ， 在 可 解释 性 方面 劣 于 GLM. 


布 的 表 型 ， 另 一 方面 能 够 解决 预测 因子 之 间 可 能 存在 复杂 函数 关系 问题 。GLM 中 的 Lasso 回归 是 一 种 使 用 Ll 正则 
化 的 线性 回归 ， 与 Logistic 回归 相 比 更 具 稀 疏 性 ， 能 够 第 选 重 要 的 预测 因子 ， 且 模型 可 解释 性 强 。 与 GLM 相 比 ， 

AJ ML 中 的 XGBoost (Extreme gradient boosting) 和 GBM (Gradient boosting machine) 则 是 通过 训练 多 个 弱 监 督 模型 
O 后 将 其 组 合成 为 更 稳健 的 强 监督 模型 ， 更 适用 于 捕捉 变量 间 复 杂 的 函数 关系 ， 但 多 数 ML 算法 的 内 部 结构 并 不 透 


QI 


本 研究 以 metaPRS，SCOREApos 与 基本 人 口 学 信息 作为 MCI 遗传 风险 统计 建 模 的 预测 因子 ， 特 别 是 考虑 到 以 


>< 上 预测 因子 间 可 能 存在 的 复杂 函数 关系 及 复杂 的 表 型 数据 特征 ， 从 GLM 和 ML 和 角度， 以 XGBoost,GBM,， Logistic 
*9 回归 及 Lasso 回归 作为 统计 建 模 方法 ， 探 索 并 优化 MC 遗传 风险 统计 建 模 策略 ， 为 MCI 等 复杂 疾病 的 高 危 人 群 识 


— 别 ， 早 期 预防 与 干预 ， 及 精准 医学 研究 提供 新 的 视角 和 科学 依据 。 
1 材料 和 方法 

”1.1 数据 来 源 与 质量 控制 
1.1.1 数据 来 源 关于 MCI 遗传 风险 预测 研究 所 需 的 基因 组 学 数据 ， 来 自 于 英国 生物 数据 库 (United Kingdom 
Biobank, UKB) 与 阿尔 欧 海 默 症 神经 成 像 计 划 (Alzheimer’s Disease Neuroimaging Initiative, ADNI). UKB 是 一 个 
大 型 前 瞻 性 队列 研究 及 生物 医学 数据 库 ， 主 要 收集 了 认 知 功能 测试 ， 血 压 ， 身 体 测量 数据 ， 血 液 检查 数据 ， 基 因 
测序 数据 ， 全 身影 像 数据 〈 例 如 : 脑 部 MRI 与 心脏 MRD 和 随访 数据 等 多 方面 的 数据 。ADNI 是 一 项 大 规模 的 队 
列 研究 ， 主 要 收集 了 受 试 者 的 人 口 统计 学 变量 〈 例 如 : 年 龄 ， 性 别 ， 受 教育 程度 )， 脑 部 影像 学 数据 ， 生 物 学 标志 
物 和 基因 测序 数据 。 
本 研究 主要 集中 于 脑 结构 成 像 表 型 ， 不 仅 准 确 选 取 了 四 种 主要 的 大 脑 组 织 结构 : 白质 体积 《White matter)， 灰 
质 体积 (Grey matter), XT WEE (Cerebrospinal fluid, CSF) 和 总 脑 体积 (Total brain); 还 纳入 了 既往 研究 表明 
与 MCI 相关 的 脑 结构 成 像 表 型 : 白质 高 信号 体积 (White matter hyperintensities，WMH)， 苍 白 球 体积 (Pallidum )， 
尾 状 核 体 积 〈Caudate)， 海 马 体 体积 〈Hippocampus)， 查 仁 核 体 积 (Amygdala)， 伏 隔 核 体 积 (Accumbens), FE% 
体积 〈Putamen) 和 丘脑 体积 〈Thalamus) 81, 

1.1.2 质量 控制 ”由 于 UKB 数据 库 均 为 和 白人， 为 控制 人 口 结构 可 能 带 来 的 混杂 ， 经 过 主 成 分 分 析 〈 见 附录 材料 1-3, 
http:/cstrcn/31253.11.sciencedb.j00150.00009)， 本 研究 只 保留 了 ADNI 数据 库 中 的 非 西班牙 裔 白人 ， 使 得 本 研究 使 
用 的 ADNI 与 UKB 数据 库 在 人 口 结构 上 相似 。 采 用 PLINK 1.9 去 除 个 体 缺 失 率 大 于 10% 的 人 群 ， 去 除 基因 型 缺失 
率 大 于 10% 的 SNPs。 数 据 质量 控制 后 ， 根 据 物 理 位 置 提取 UKB 55 ADNI 数据库 共同 的 SNPs。 最 终 UKB 数据 库 得 
到 488371 个 个 体 ，694020 个 SNPs， 以 此 对 各 亚 表 型 进行 GWAS 研究 获得 所 需 的 GWAS 汇总 数据 ，ADNI 数据 库 


中 


得 到 325 个 个 体 ，694020 个 SNPs。 
1.2 方法 本 研究 从 研究 设计 上 分 为 三 个 阶段 ， 见 图 1。 第 一 个 阶段 : E ADNI 数据 集中 ， 计 算 MCI 12 个 亚 表 
型 PRS。 第 二 个 阶段 : 基于 弹性 网 状 Logistic 回归 模型 整合 12 个 亚 表 型 PRS， 并 计算 MCI 的 metaPRS。 第 三 个 阶 
段 : 通过 10 折 交 叉 验 证 对 不 同 预测 因子 纳入 策略 及 不 同 预测 方法 性 能 进行 验证 。 

第 一 阶段 : 构建 MCI 的 12 个 亚 表 型 PRS 


来 自 United Kingdom Biobank ADNI 数 据 库 : 325 个 个 体 
的 各 个 亚 表 型 GWAS 汇 总 数据 694020 个 SNPs 


对 于 每 个 亚 表 型 ， 采 用 不 同 r* 和 p 值 阅 值 收 劳 SNPs， 构 建 40 组 SNPs 组 合 。 


根据 PRSice 选 择 R? 值 最 大 的 PRS 作 为 每 个 亚 表 型 和 MCI 的 最 优 PRS。 


12 个 亚 表 型 PRS: PRScsF PRSWMH PRSGrey matter 了 RSHippocampus 
PRSWhite matter 了 RSAmygdala 了 RSTotal brain PRSAccumbens 
PRSCaudate PRSpalidum PRSputamen PRSThalamus 


第 二 阶段 : 构建 MCI 的 metaPRS 


ADNI 数 据 库 30% 的 样本 (n=96，33 个 正常 认 知 个 体 ，63 个 MCI 个 体 ) 
弹性 网 状 Logistic 回 归 模 型 


metaPRS — Bi * PRScsF 十 B2 * PRSwMH 十 B3 * PRSwwnu 十 … 
最 终 694020 个 SNPSs 纳 入 metaPRS 计 算 


第 三 阶段 : 验证 metaPRS 与 其 他 预测 因子 纳入 策略 


ADNI 数 据 库 剩余 70% 的 样本 (n=229，78 个 正常 认 知 个 体 ，151 个 MCI 个 体 ) 
策略 一 : 年 龄 + 性 别 + 受 教育 程度 +PRSpheno_12 


A 
四 策略 二 : 年 龄 + 性 别 + 受 教育 程度 +PRSpheno-12+SCOREAPOE 


PHI: 年 龄 + 性 别 + 受 教育 程度 +metaPRS 


EO: 年 龄 + 性 别 + 受 教育 程度 trmetaPRS+SCOREA pOF 
预测 正常 认 知 个 体 与 MCI 个 体 的 统计 建 模 方法 
机 器 学 习 (ML) 


10 折 交叉 验证 


评价 预测 模型 : AUC 
F-measure 


图 1 研究 设计 
Figure 1 Study design 


1.2.1 


体 水 平 的 统计 学 分 析 ， 识 别 和 描述 SNPs 与 疾病 进展 或 疾病 结 
Quantile-Quantle (Q-Q) 图 和 曼哈顿 图 


全 基因 组 关联 研究 


检验 统计 量 的 期 望 和 分 布 之 间 的 关系 ，4- 统 计量 评估 是 否 有 必要 纳入 主 成 分 控制 稻 
1.2.2. metaPRS 的 构建 
PRS 为 每 个 SNPs 的 风险 等 位 基因 
PÆ GWAS 汇总 数据 的 效应 值 ，Xij 是 第 i 个 个 

(2) 在 ADNI 数 据 库 (Cn=325) 中 随机 抽出 30% 的 个 体 ， 采 用 红 
在 最 终 模型 中 获得 每 个 亚 表 型 PRS 的 系数 (B1,… Bi) 作 为 权重 中 区 以 构建 metaPRS 的 预测 模型 。 


Mp io P + t Ée ap ERA PRS 水 平 的 权重 转换 为 SNPs 水 平 的 权重 ， 


第 j 个 SNP, 


(3) 利 


练 集中 每 个 亚 表 型 PRS 的 标准 差 ，@j1,… 


901 


GWAS} 


CD 使 


各 单 核 背 酸 多 态 性 (Single nucleotide polymorphisms, SNPs) 位 点 与 性 状 进行 群 


的 个 数 乘 以 其 各 自 的 效 


中 未 包含 某 个 SNP， 则 该 SNP 的 效应 值 大 小 ajk 设 为 0。 


(4) 根据 公式 metaPRS = Y Bsnp ; x Niit 
应 等 位 基因 数目 。 
子 纳入 策略 ”本 研究 的 预测 因 


i 个 SNP 的 效 
预测 因 


1.2.3 


metaPRS, 


进行 可 视 化 ， 曼 哈 顿 图 


局 之 间 的 关联 


9]。 


表示 SNPs 的 显著 性 水 平 ，Q-Q 图 表示 在 SNPs 水 平 上 
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GWAS 的 研究 结果 主要 通过 


f 体 分 层 四 。 
] PRS 的 经 典 构建 方法 (Clumping and threshold，C+T) 计算 各 个 亚 表 型 PRS, 
应 量 ， 构 建 公式 为 PRSi = 2P1 Bi Xij，i 是 第 i 个 个 体 ，j 是 
体 第 /个 SNP 风险 等 位 基因 的 个 数 。 

性 网 状 Logistic 


回归 模型 整合 12 个 亚 


表 型 PRS， 


其 中 ， 01, Oy XE VII 


…4 关 是 第 i 个 SNP 的 等 位 基因 对 应 于 每 个 亚 表 型 的 效应 值 ， 如 果 第 上 个 评分 


其中 ，Bsnp i 是 第 i 个 SNP 的 效应 值 ，Ni 是 个 体 所 携带 第 


子 纳 入 策 


由 于 在 APOEs4 


的 连锁 不 平衡 区 域 中 rs429358 是 最 显著 的 位 点 ， 所 以 选择 rs429358 代表 APOEsg401。 且 APOEs4 的 等 位 基因 频率 


随 着 年 龄 的 变化 而 变化 L223， 所 以 本 研究 选择 通过 Pjpogs4 = In OR 计 算 以 年 龄 矫 了 
Z Baporea = 0.542; 60< 个 体 年 龄 <70，pBapogs4 = 0.419 ; 70< 个 体 年 龄 <80，pBapoge4 = 0.577 ; 80< 个 体 年 龄 ， 
LO Bapogg, = 0.425 031)， 并 单独 计算 APOEs4 的 加 权 总 和 [9， 
之 是 APOEcA 的 效应 量 ，X 


UE 


ELA 人、 人 


E 


| 


体 rs429358 风险 等 位 基因 


E 的 APOEs4 效应 量 


二 公式 为 SCORE4pop_i = 
的 个 数 。 本 研究 的 预测 因子 纳入 策略 见 表 1 。 


| 


(个 体 年 龄 <60， 


BXi:， 其 中 ,i 是 第 i 个 个 体 ，B 


注 : 


1.2.4 


E 法 M1。XGBoost 的 基本 | 
^ 函数 中 ， 使 学 习 到 的 模型 


PRRI yi) EMEEK) = yT + 2Alolp. A 


T SCOREApot，APOEs4 的 加 权 总 和 。 
统计 建 模 方法 


正则 化 项 表示 树 的 复杂 度 的 函数 ， 值 越 小 ， 则 复杂 度 越 低 ， 泛 化 能 力 越 强 。 
(2) GBM (Gradient boosting machine) 是 ML 中 党 


思想 是 利 月 
上 + 泛 化 能 力 更 高 。 其 目标 函数 为 : 


LG) = 5 15i 


(1) XGBoost (Extreme gradient boosting). 算法 是 陈 天 奇 博士 提出 的 基于 集成 学 习 的 ML E 
函数 的 二 阶 导 数 信息 来 训练 树 模型 ， 并 把 树 模 型 复杂 度 作 为 正则 化 项 加 到 目标 


y) * > 000 
k 


多 棵 决策 树 不 断 学 习 残 差 ， 减 小 损失 函数 的 值 来 调整 模型 ， 


性 回归 模型 ; 


其 中 ， y* 是 表 型 ， 
预测 因子 相关 性 之 间 进 行 权衡 。 实 际 上 ， 较 小 的 3 需要 组 


WUER Er 


(3) Logistic 回 


E 更 好 的 预测 性 能 。 


归 是 预测 结 


M 


j 算 法 ， 该 算法 由 大 量 简单 的 决策 树 集合 
具有 较 高 的 可 解释 性 [9 


y'-1u-c > Vhm O“; X) +e 


m=1 


X 是 预测 因子 ，e 是 残 差 ， 如 用 于 控 人 


合 更 多 


变量 为 二 分 类 变量 时 最 为 常 


。GBM 在 没有 先 验 数据 结 
情况 下 ， 可 以 对 表 型 及 其 预测 因子 之 间 的 关系 建 模 ， 被 认为 是 一 种 泛 化 能 力 较 强 的 算法 。GBM 可 以 表示 为 一 组 加 


3&1 ，MCI 遗传 风险 统计 建 模 预 测 因子 纳入 策略 
Table 1 Description of predictor inclusion strategies for statistical modeling of genetic risk for MCI 
策略 序号 预测 因子 纳入 策略 
策略 一 年 龄 + 性 别 + 受 教育 程度 + PRSpneno 12 
策略 二 年 龄 + 性 别 + 受 教育 程度 + PRSpheno 12+ SCOREAPoE 
策略 三 年 龄 + 性 别 + 受 教育 程度 + metaPRS 
策略 四 年 龄 + 性 别 + 受 教育 程度 + metaPRS+ SCOREApoE 
PRSpheno 12， 通 过 UKB 的 GWAS 汇总 数据 构建 的 12 个 亚 表 型 PRS; metaPRS， 整 合 MCI 的 12 个 亚 表 型 PRS 得 到 的 metaPRS; 


，T 代 表 叶 子 节 点 的 个 数 ，w 表 示 叶 子 节 点 的 分 数 。 


DR FHR 
构 的 


吓 每 次 迭代 时 从 残 差 中 减 去 的 方差 ， 从 而 在 模型 数量 和 
的 模型 ， 以 在 训练 集中 达到 相同 的 错误 率 ， 且 会 在 


j 的 统计 模型 ， 其 通用 形式 如 下 : 


N 著 相 关 的 SNPs. 


P 
Logit(P) = Log (=) = a + b1Xı + = + bmxm 
EB. xx BOUT s bi, e bmw 为 m 个 预测 因子 的 回归 系数 。Logistic 回归 表达 式 经 过 简单 变换 ， 可 得 预 


N 


志 件 的 概率 P， 表 达 式 为 P = -pGtbenct “+bmxm)  。 


1+exp(a+b1x1+* .+bmxm) ~ 
(4) Lasso 回归 由 Tibshirani 于 1997 年 提出 09， 骨 在 构建 性 能 最 佳 的 惩 昼 线性 模型 。 在 Lasso 回归 中 较 大 的 您 
神 会 导致 一 些 预测 因子 的 回归 系数 接近 零 ， 回 归 系 数 变 为 零 的 预测 因子 会 从 模型 中 删除 。Lasso 回归 具有 较 强 的 稀 
疏 回归 系数 向 量 的 能 力 ， 为 模型 选择 有 用 的 特征 ， 有 具有 更 高 的 模型 性 能 。 
1.3 ”统计 学 分 析 所 有 统计 学 分 析 均 通过 及 软件 〈 版 本 4.1.0) 完成 。XGBoost，GBM，Logistic 回归 和 Lasso 回归 
分 别 采用 XGBoost 包 ，gbm 包 ，stats 包 和 glmnet 包 。 所 有 预测 模型 采用 10 折 交叉 验证 方法 验证 预测 性 能 ， 评 价 指 
标 采 用 Fl 4234 CF-measure? 与 AUC。F-measure 是 常用 于 评价 二 分 类 模型 的 信 度 指标 ， 其 数值 越 大 ， 表 示 模 型 对 
于 精确 率 和 召回 率 的 平衡 效果 越 好 且 分 类 模型 信 度 越 高 。 
2 结果 
2.1 研究 对 象 的 基本 信息 “病例 组 平均 年 龄 〈70.66+7.00) 岁 ， 对 照 组 平均 年 龄 (74.26+5.69) 岁 ， 病 例 组 
APOEs4 等 位 基因 频率 为 45.79%， 对 照 组 APOEs4 等 位 基因 频率 为 27.93%， 见 表 2. 

表 2 ADNI325 个 受 试 者 的 一 般 情 况 

Table2 General condition of 325 participants in ADNI 


三 
4g 


i 


Ws 


正常 认 知 个 体 (N=111) MCI 个 体 (N=214) 
年 龄 ( 岁 ) 74.26+5.69 70.66+7.00 
性 别 ( 男 / 女 ) 59/52 114/100 
受 教育 时 间 (年 ) 16.42+2.54 16.20+2.66 
APOEs4 等 位 基因 31 (27.9396) 98 (45.7996) 


22 ”全 基因 组 关联 研究 ”本 研究 计算 了 12 个 亚 表 型 的 4- 统 计量 且 其 都 接近 于 1， 这 说 明 群 体 分 层 得 到 了 适当 的 调 
整 ， 见 图 2。Amygdala，Caudate，CSF，Pallidum，Putamen 及 WMH 表 型 存在 达到 edid 显著 水 平 p<5x108 
AN (第 一 条 水 平 线 ) 的 SNPs， 这 些 SNPs 位 点 所 在 的 基因 是 AD 的 候选 基因 [iH。Accumbens，Grey matter, 

3 Hippocampus, Thalamus, Total brain 及 White matter 表 型 ， 在 p«5x109 (第 的 阔 值 水 平 上 存在 许多 显 


本 研究 选 ideis WREE E BUE EZE T IT] SNPs 被 证 明 为 假 阳 性 08。ReedI 在 p«5x10- 

w^ “的 关联 冰 值 下 发 现 一 些 显著 的 SNPs， 相 较 于 p<5x103，P<5x105 是 不 太 严格 的 关联 阔 值 ，p<5x104 的 这 些 SNPs 需 

j 要 进一步 验证 ， 此 方法 类 似 于 Edmondson 的 研究 09。 所 以 我 们 基于 既往 研究 选择 了 Bonferroni 显著 水 平 (p<5x10- 
8) 和 Bonferroni BIfEZK^E. (p<5x106) 用 于 判断 多 个 亚 表 型 GWAS 汇总 数据 是 否 有 研究 价值 的 SNPs。 
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2 MCI 的 12 4*3 
Figure 2 Manhattan plots and Q-Q plots for 12 MCI-related traits 
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metaPRS 的 构建 ”计算 各 预测 因子 之 间 的 Pearson 相关 系数 ， 如 图 3 所 示 ， 各 预测 因子 之 间 存 在 不 同 程度 的 相 
， 其 中 ，PRSHippocampus 和 metaPRS (7 一-0.6)、PRSwwH 和 metaPRS (r=0.5), PRSpalidum 和 metaPRS (7 一 -0.5)、 


PRScsr 和 PRS Accumbens (71=-0.4) ^ PRScsr 和 PRSTotal brain (7=-0.4) ^ PR STotal brain 和 PRSGrey mattter (一 -0.4) 以 及 
PRS Accumbens $ H PRSThalamus (7=0.4)。 
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图 3 不 同 预测 因子 之 间 的 Pearson 相关 系数 
Figure3 Pearson correlation coefficient of different predictors 


不 同 预 测 因子 纳入 策略 的 验证 A 组 (策略 一 VS 策略 二 ) 和 B 组 〈 策 略 三 VS 策略 四 )， 分 别 比较 策略 一 和 


策略 二 以 及 策略 三 和 策略 四 ， 加 入 SCOREApog 策略 的 趋势 明显 高 于 未 加 入 SCOREApog 策略 ， 说 明 APOEs4 预测 


I 的 作用 得 到 了 验证 。C 组 (策略 二 VS 策略 四 ) 通过 比较 策略 二 和 策略 四 ， 在 4 种 统计 建 模 方法 上 策略 四 的 趋 


MC 
势 高 于 策略 二 ， 即 基于 metaPRS 优化 的 预测 因子 纳入 策略 优 于 基于 12 种 亚 表 型 的 PRS 的 预测 因子 纳入 策略 , 如 图 
4 所 示 。 
A B C 
0.9 
0.8 
预测 因子 纳入 策略 
CD 申 策略 一 
zc 7 EH 策略 二 
EB 策略 三 
EB 策略 四 
.6 
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XGBoost GBM Logistic Lasso XGBoost GBM Logistic Lasso XGBoost GBM Logistic Lasso 
统计 建 模 方 法 


4 不 同 预测 因子 纳入 策略 的 比较 
Figure 4 Comparison of inclusion strategies for different predictors 


统计 建 模 效果 的 评价 ”总 体 来 说 ，Lasso 回归 的 预测 性 能 高 于 其 他 3 种 统计 建 模 方 法 。A 组 中 ， 不 同 预测 因子 


纳入 策略 下 Lasso 回归 的 F-measure 高 于 其 他 3 种 统计 建 模 方法 ; 在 策略 四 (metaPRS 和 SCOREAaroe〉 中 ， 不 同 统 
计 建 模 方法 的 F-measure 分 别 为 : XGBoost (F-measure-0.88), GBM CF-measure-0.87) , Logistic 回归 (F- 
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measure-0.89), Lasso 回归 CF-measure-0.92). B 组 中 ， 在 策略 四 上 不 同 统 计 建 模 方法 的 AUC 离散 程度 大 体 一 致 ， 


其 中 位 数 分 别 为 : XGBoost (AUC=0.69) ，GBM (AUC=0.76) , Logistic 回归 CAUC-0.77) , Lasso 


n: 


-T T T 
GBM Logistic Lasso 


EN 


0.94 


0. 84 


0.64 


0.54 


统计 建 模 方法 
XGBoost 
GBM 


Logistic 
Lasso 


T 
XGBoost 


统计 建 模 方法 


不 同 统 计 建 模 方 法 的 F-measure 5 AUC 比较 


Figure5 Comparison of F-measure and AUC of different statistical modeling methods 


CAUC-0.76). 
A 
0. 950 
0. 925 
E 统计 建 模 方法 
z E XGBoost 
S 0. 900 B GBM 
F B Logistic 
= E Lasso 
0. 875 
0. 850 
- 策略 二 策略 三 策 
预测 因子 纳入 策略 
图 5 
3 讨论 


本 研究 以 12 个 亚 表 型 的 PRS，metaPRS，SCOREApos 及 基本 人 口 学 信息 
Logistic 回归 及 Lasso 回归 作为 MCI 统 计 建 模 的 方法 ， 探 索 并 构建 了 适用 于 MCI 遗传 风险 预测 的 
特别 是 ， 研 究 发 现 ，metaPRS 与 SCOREApo 对 于 MCI 的 遗传 风险 具有 较 高 预测 价值 ， 且 在 样 
二 不 高 (小 于 500) 的 情况 下 ，Lasso 回归 是 MCI 遗传 风险 统计 建 模 比较 理 


XGBoost, GBM, 
统计 建 模 策略 。 


E 想 的 方法 。 


作为 MCI 统计 建 模 的 预测 因子 ， 以 


本 量 


研究 发 现 ，APOEs4 效应 量 进行 年 龄 矫正 后 加 权 算 分 并 作为 预测 因子 纳入 预测 模型 会 显著 提高 MCI 的 预测 分 
d pd pedi MCI 其 有 重要 意义 。 已 有 研究 表明 在 人 群 中 APOEzA 的 等 位 基因 频率 会 随 着 年 


.az Ap EAS ELZ 
量 受 年 龄 影响 (2， 


E eR TR 的 合理 性 
于 12 个 亚 表 型 PRS 的 预测 因子 纳入 策 
纳入 策略 优 于 其 他 3 种 预测 因子 纳入 策略 〈 见 图 4)。 
PRS， 使 用 AUC 评估 预测 效果 在 0.58-0.68B]。 这 


zz H 


GBM, Logistic 回归 及 Lasso 回 
中 ， 我 们 可 以 更 多 的 关注 相关 预测 


因子 的 挖掘 及 


究 是 选取 与 MCI 相 关 的 12 个 脑 成 像 表 型 ， 合 ee 12 ^4 3] 
归 进 行 分 析 比 较 ， 最 终 得 到 性 能 高 
整合 预测 


因子 方法 的 开发 。 


断 所 需 的 水 平 ， 但 与 之 前 的 研究 相 比 ， 我 们 的 分 析 取 得 了 积极 进展 。 


本 研究 综合 F-measure 与 AUC 两 个 评价 指标 ，Lasso 


亚 表 型 ) 和 策略 二 (MCI 的 12 个 亚 表 型 和 SCOREApoE) 
回归 具有 更 强 的 稀疏 回归 系数 向 量 的 能 力 ， 惩 


罚 线 性 回归 更 适 月 


本 研究 再 次 验证 利用 经 过 年 龄 矫正 
与 科学 性 ， 本 研究 还 发 现 ， 基 于 metaPRS 的 预测 因子 纳入 策略 优 于 基 
咯 及 既往 对 于 MCI 的 预测 策略 ， 且 基于 metaPRS 和 SCOREApoE 的 预测 因子 
既往 对 于 MCI 的 预测 都 是 通过 AD 的 GWAS 汇总 数据 构建 的 


的 APOEs4 效应 量 并 加 权 算 


是 因为 既往 的 GWAS 汇总 数据 是 关于 AD 的 
TRW PRS 构建 metaPRS， 并 选用 了 XGBoost, 
的 模型 。 因 此 ， 在 未 来 MCI 遗传 风险 预测 的 研究 


=] 


回归 的 预测 效果 最 好 。 


二 分 类 变量 ， 而 本 研 


RIA MCI. 的 预测 模型 尚未 达到 临床 诊 


OH 


一 方面 ， 在 策略 一 (MCI 的 12 个 


FH, Lasso 回归 优 于 


他 3 种 统计 建 模 方法 ， 主 要 是 Lasso 


昌 于 有 相关 性 的 多 个 亚 表 型 构建 遗传 风险 预测 模型 


另 一 方面 ， 在 策略 三 (metaPRS) 和 策略 四 (metaPRS 和 SCOREApog) 中，XGBoost 劣 于 其 他 3 种 统计 建 模 方法 ， 


原因 可 能 是 本 研究 的 样本 量 较 小 ，XGBoost 相 比 于 


Christodoulou 等 人 做 了 一 项 综述 研究 中， 汇集 了 75 项 研究 的 数据 ， 其 样 
结果 上 没有 明 
《朴素 贝 叶 斯 ，XGBoost， 支 持 向 量 机 等 ) 中 ，XGBoost 的 性 和 
与 其 他 ML 方法 相 比 没有 明显 优势 。 
完结 果 的 泛 化 能 力 ， 且 本 研究 的 基因 组 学 数据 是 来 自 UKB 


3994872)， 最 终 发 现 相 比 于 Logistic 回归 ，ML 在 预测 


本 量 小 于 500 的 情况 下 ， 
由 于 本 研究 训练 集 样本 量 不 够 大 ， 这 可 


和 ADNI 两 个 数据 库 交 叉 合 并 的 共 


能 会 影响 有 


Lasso 


显 


E, 1 


EXE 


序数 据 考虑 一 些 罕 见 变异 的 测量 。 此 外 ， 本 下 


究 仅 采用 


综 上 ， 


以 metaPRS、SCOREnpoE 与 基本 人 口 


本 量 
A. RAAR, 
其 预测 效果 非常 


同 物理 位 置 SNPs， 可 能 会 遗失 与 MCI 相关 的 遗传 信息 。 
了 4 种 统计 建 模 方 法 ， 未 来 将 进一步 探索 其 他 可 能 提 
遗传 风险 预测 精度 的 方法 ， 并 考虑 构建 全 新 的 统计 模型 。 
学 信息 年龄 ， 性 别 和 受 教育 程度 ) 作 为 预测 因子 ， 


回归 需要 更 大 的 样本 量 才 能 体现 其 性 能 优势 。 
中 位 数 为 1250 (样本 量 范 围 为 72- 


在 多 种 ML 方法 


依赖 于 样本 量 大 小 ， 在 样 


因此 ， 建 议 未 来 基因 测 
高 MCI 


以 Lasso 回 


归 


作为 MCI 遗传 风险 统计 建 模 方法 的 统计 建 模 策 略 取得 了 较 理 想 的 预测 效果 ， 有 助 于 为 MCI 精准 医疗 及 早期 干预 提 
供 科学 依据 ， 具 有 一 定 的 临床 应 用 价值 。 必 要 情况 下 ， 将 MCI 的 遗传 风险 预测 作为 健康 体检 项 目 或 者 相关 门诊 的 
常规 盘查 ， 可 以 在 很 大 程度 上 提高 MCI 的 检 出 率 ， 进 而 实现 MCI 的 早期 干预 ， 有 效 降低 家 庭 及 社会 的 疾病 负担 。 
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帅 ， 赵 彩 丽 负责 文献 /资料 收集 、 翻 译 与 整理 ， 王 晓 聪 负责 搜集 数据 ， 温 雅 璐 ， 刘 龙 负 责 核心 督导 ， 对 文章 整体 负 
责 。 所 有 作者 确认 了 论文 的 最 终 稿 。 
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